1 research outputs found

    Value Function Estimation in Optimal Control via Takagi-Sugeno Models and Linear Programming

    Full text link
    [ES] La presente Tesis emplea t茅cnicas de programaci贸n din谩mica y aprendizaje por refuerzo para el control de sistemas no lineales en espacios discretos y continuos. Inicialmente se realiza una revisi贸n de los conceptos b谩sicos de programaci贸n din谩mica y aprendizaje por refuerzo para sistemas con un n煤mero finito de estados. Se analiza la extensi贸n de estas t茅cnicas mediante el uso de funciones de aproximaci贸n que permiten ampliar su aplicabilidad a sistemas con un gran n煤mero de estados o sistemas continuos. Las contribuciones de la Tesis son: -Se presenta una metodolog铆a que combina identificaci贸n y ajuste de la funci贸n Q, que incluye la identificaci贸n de un modelo Takagi-Sugeno, el c谩lculo de controladores sub贸ptimos a partir de desigualdades matriciales lineales y el consiguiente ajuste basado en datos de la funci贸n Q a trav茅s de una optimizaci贸n monot贸nica. -Se propone una metodolog铆a para el aprendizaje de controladores utilizando programaci贸n din谩mica aproximada a trav茅s de programaci贸n lineal. La metodolog铆a hace que ADP-LP funcione en aplicaciones pr谩cticas de control con estados y acciones continuos. La metodolog铆a propuesta estima una cota inferior y superior de la funci贸n de valor 贸ptima a trav茅s de aproximadores funcionales. Se establecen pautas para los datos y la regularizaci贸n de regresores con el fin de obtener resultados satisfactorios evitando soluciones no acotadas o mal condicionadas. -Se plantea una metodolog铆a bajo el enfoque de programaci贸n lineal aplicada a programaci贸n din谩mica aproximada para obtener una mejor aproximaci贸n de la funci贸n de valor 贸ptima en una determinada regi贸n del espacio de estados. La metodolog铆a propone aprender gradualmente una pol铆tica utilizando datos disponibles s贸lo en la regi贸n de exploraci贸n. La exploraci贸n incrementa progresivamente la regi贸n de aprendizaje hasta obtener una pol铆tica convergida.[CA] La present Tesi empra t猫cniques de programaci贸 din脿mica i aprenentatge per refor莽 per al control de sistemes no lineals en espais discrets i continus. Inicialment es realitza una revisi贸 dels conceptes b脿sics de programaci贸 din脿mica i aprenentatge per refor莽 per a sistemes amb un nombre finit d'estats. S'analitza l'extensi贸 d'aquestes t猫cniques mitjan莽ant l'煤s de funcions d'aproximaci贸 que permeten ampliar la seua aplicabilitat a sistemes amb un gran nombre d'estats o sistemes continus. Les contribucions de la Tesi s贸n: -Es presenta una metodologia que combina identificaci贸 i ajust de la funci贸 Q, que inclou la identificaci贸 d'un model Takagi-Sugeno, el c脿lcul de controladors sub貌ptims a partir de desigualtats matricials lineals i el conseg眉ent ajust basat en dades de la funci贸 Q a trav茅s d'una optimitzaci贸 monot贸nica. -Es proposa una metodologia per a l'aprenentatge de controladors utilitzant programaci贸 din脿mica aproximada a trav茅s de programaci贸 lineal. La metodologia fa que ADP-LP funcione en aplicacions pr脿ctiques de control amb estats i accions continus. La metodologia proposada estima una cota inferior i superior de la funci贸 de valor 貌ptima a trav茅s de aproximadores funcionals. S'estableixen pautes per a les dades i la regularitzaci贸 de regresores amb la finalitat d'obtenir resultats satisfactoris evitant solucions no fitades o mal condicionades. -Es planteja una metodologia sota l'enfocament de programaci贸 lineal aplicada a programaci贸 din脿mica aproximada per a obtenir una millor aproximaci贸 de la funci贸 de valor 貌ptima en una determinada regi贸 de l'espai d'estats. La metodologia proposa aprendre gradualment una pol铆tica utilitzant dades disponibles nom茅s a la regi贸 d'exploraci贸. L'exploraci贸 incrementa progressivament la regi贸 d'aprenentatge fins a obtenir una pol铆tica convergida.[EN] The present Thesis employs dynamic programming and reinforcement learning techniques in order to obtain optimal policies for controlling nonlinear systems with discrete and continuous states and actions. Initially, a review of the basic concepts of dynamic programming and reinforcement learning is carried out for systems with a finite number of states. After that, the extension of these techniques to systems with a large number of states or continuous state systems is analysed using approximation functions. The contributions of the Thesis are: -A combined identification/Q-function fitting methodology, which involves identification of a Takagi-Sugeno model, computation of (sub)optimal controllers from Linear Matrix Inequalities, and the subsequent data-based fitting of Q-function via monotonic optimisation. -A methodology for learning controllers using approximate dynamic programming via linear programming is presented. The methodology makes that ADP-LP approach can work in practical control applications with continuous state and input spaces. The proposed methodology estimates a lower bound and upper bound of the optimal value function through functional approximators. Guidelines are provided for data and regressor regularisation in order to obtain satisfactory results avoiding unbounded or ill-conditioned solutions. -A methodology of approximate dynamic programming via linear programming in order to obtain a better approximation of the optimal value function in a specific region of state space. The methodology proposes to gradually learn a policy using data available only in the exploration region. The exploration progressively increases the learning region until a converged policy is obtained.This work was supported by the National Department of Higher Education, Science, Technology and Innovation of Ecuador (SENESCYT), and the Spanish ministry of Economy and European Union, grant DPI2016-81002-R (AEI/FEDER,UE). The author also received the grant for a predoctoral stay, Programa de Becas Iberoam茅rica- Santander Investigaci贸n 2018, of the Santander Bank.D铆az Iza, HP. (2020). Value Function Estimation in Optimal Control via Takagi-Sugeno Models and Linear Programming [Tesis doctoral]. Universitat Polit猫cnica de Val猫ncia. https://doi.org/10.4995/Thesis/10251/139135TESI
    corecore